@汪蓝玉朱玉彬:《数字人文视域下二十四史论赞引语的言据性研究》

总结😁

主要方法是数数。分词-匹配(人工筛选)-数数-(画图)。数了:言说动词、引述来源、论赞句的其他句子成分(副词、语气词以判断主观态度)
细节:标准化频数:每千词出现频率,可以减少语料库大小的影响。
知识点:言据性

摘要

本文采用SikuBERT预训练模型、语料库工具Wordless和数据可视化工具Gephi,结合定量和定性分析,从常用引述动词、信息来源指称和引述者对信息的主观态度表达等方面考察了二十四史论赞引语的言据性。研究发现:

引言

数字人文利用语料库、数据库和各种分析方法,为人文学科带来了数据驱动的研究范式。本文旨在探讨如何在数字人文视域下,将语料库方法与传统语言学研究相结合,更好地融合“数字”与“人文”。本文以二十四史论赞为语料,利用相关工具对论赞引语的言据性进行剖析,为历史语篇的语言研究提供数字人文的方法启示。

一、研究背景

(一)古汉语书面语篇中的引语

  1. 分析的语料涉及范围较广,针对某一种特定语体中引语使用特征的研究有待深入。
  2. 研究方法较为单一,数据驱动的方法不多见。
  3. 研究视角存在一定的局限性,相关研究多囿于对古书引语表面结构的讨论,对古人使用引语的主观意图以及引语的交际功能关注不够,也少有结合其他语言范畴的分析。

(二)引语的言据性

补充💡

言据性(Evidentiality)是一种普遍存在于几乎所有语言中的语言现象,也称为传信范畴、实据性或示证范畴。它主要与以下两个方面有关:

  1. 信息来源的说明: 言据性标记会明确或暗示说话者获取信息的来源,例如是通过亲眼所见、亲耳所闻、推断、传闻等方式。

  2. 说话人对信息的态度: 言据性标记通常也反映了说话人对所报告信息的态度和可信度判断,例如是确信、怀疑、推测等等。

在语法层面上,言据性表现为据素/证素(Evidentials)或言据标记(Evidential Markers)。

举例说明:

  • “我看见小王在打篮球” 这句话中的“看见”就是一种感官类的言据标记,表明说话者亲眼目睹了小王打篮球。
  • “我听说小王在打篮球” 这句话中的“听说”是一种传闻类的言据标记,表明说话者是从别人那里听说的,并非亲身经历。

总结: 言据性是一种语言机制,用来标记信息的来源和说话者对信息的态度,它帮助听者理解信息的可靠性和说话者的立场。

本文主要考察论赞引语的言据性,引语是特殊的据素类型,属于转述类或传闻类言据。
本文将引语视为一种特定的说明信息来源和言者态度的言据策略,从常用引述动词、信息来源指称和引述者对信息的态度表达等方面考察论赞引语的使用特征和语用功能。

二、研究方法

(一)语料处理说明

本文语料为二十四史的论赞部分,来自数字化文渊阁本《四库全书》史部。利用Python编程,采用字符串匹配算法提取包含表1所列的论赞开头标记字段的段落,最终得到2,514段,总计418,022字。
表1 论赞的段落开头标记(略)
之后利用SikuBERT预训练模型的分词工具进行古文分词、利用SikuBERT词性标注微调模型进行词性标注,建立小型语料库。

(二)论赞引语的提取

以常见的古汉语言说动词为线索,在自建论赞语料库中抽取引语。步骤如下:

  1. 统计高频动词,发现论赞中引进引语的言说动词主要有“曰”“称”“谓”“言”和“云”。
  2. 利用语料库工具Wordless抽取这五个动词所在的索引行(共2,447条)。
  3. 人工对照原文逐一筛查核对,只保留五个动词表示“说”并引进引语的句子,最终得到923条引语。

三、结果与讨论

(一)结果分析

常用引述动词的使用

表2列出了五个引述动词在语料中的使用频次,表3展示了不同时期的使用分布。
表2 论赞引语中五个引述动词使用的原始频次

引述动词 总计 占比
402 43.55%
235 25.46%
130 14.09%
106 11.48%
50 5.42%
总计 923 100.00%
表3 三阶段论赞引语中五个引述动词使用的标准化频数 (标准化频数/千词)
引述动词 上古 中古 近代
2.98 0.69 1.10
0.63 0.34 0.81
0.63 0.36 0.23
0.13 0.36 0.14
0.76 0.05 0.15
引语总数 5.13 1.8 2.43

Wordless的搭配分析和索引行的结果显示:

信息来源指称

论赞引语中,信息来源指称通常邻接在引述动词前,主要由名词担任。表4列出了前十位常见信息来源指称。图1展示了信息来源指称与引述动词的搭配关系网络。
表4 论赞引语的主要信息来源指称分布

排序 信源指称 频次
1 孔子(仲尼/子) 74
2 古(古人/古语) 56
3 49
4 37
5 37
6 34
7 33
8 15
9 老子(/老氏/老聃) 10
10 孟子(孟轲) 8
合计 353

图1 主要信息来源指称与引述动词的搭配关系网络
Pasted image 20250221120446.png

引述者对信息的主观态度表达

(二)讨论

论赞引语的言据性分析:

  1. 引述动词:
    • “曰”作为最常用的引述动词,其言说义在一定程度上虚化,主要作为言据标记,提醒读者关注信息来源和引述内容。
    • “(所)谓”与“曰”不同,“所谓”在语用中浮现的主观评价义有关,更适用于辅助史家的主观评价,在语用上能够丰富语言的情感色彩。
  2. 信息来源指称:
    • 论赞引语以引用儒家典籍为主,体现出史家以儒家伦理精神为指针评判人物和事件,强化读者对儒家思想的认知,有助于史家在历史语境中维护儒家礼教的道德秩序。
  3. 引述者对信息的主观态度:
    • 表达主观态度的言据标记并不多见,说明史家对所引用的信息主要持肯定和确信的态度。
    • 少数表达主观态度的言据标记具有明显的人际意义和语用功能,如道德劝说、逃避话语责任或缓和褒贬语气等。

结论

本文基于数字人文研究路径,对二十四史论赞引语的言据性进行了探讨,考察了论赞引语作为言据策略的使用特征和语用功能,既可拓展史书论赞的语言研究,也可丰富汉语引语和言据性的关联研究。后续研究可深入挖掘论赞中其他的引语标记、内部结构和言者主观态度的多种表达方式等问题。